其他
浏览器F12操作概述
我的很多文章都是说,通过F12找到url来获取数据的《浏览器F12的用法》,那么到底怎么操作,其实通过网上搜索教程或者视频肯定能学会的,这里就简单的介绍一下,抛砖引玉。
首先,我建议使用谷歌浏览器来操作,按F12键进入开发者模式,就可以查看网站代码和相关数据的URL了,以我之前写的《中国扶贫地图数据》为例,很多读者问我,这个F12根本就点不了,还有的同学说提示只能在移动端打开,这里就有两个小技巧了。现在我来告诉大家:
1.除了F12之外,你可以在浏览器工具栏里找到开发者工具模式,因为一些网站会禁掉F12的。
2.开发者工具模式可以模拟成很多样式的移动端。手机、平板都可以
其次,F12一般和火车采集器等爬虫软件配合使用,它们的教程里也会专门教你如何找标签。如果是python写爬虫的话,对应的就是beautifulsoup库。这里用到的主要是箭头。我以《纯干货|GISer如何学习python(升级版)》里提到的爬虫课程里教的那个案例,大学排名网为例,做讲解。
点击北京大学排名,就会找到这个要素出现的标签。
<td><a href="d-10001.html">北京大学排名</a></td>
这样,我们就能在XX采集器中建立规则了。其实就是一串字符串去掉中间需要的内容构成一个规则。
其他的比较重要的内容就是url的寻找,我一般都会在Network下面的XHR或者JS上找到数据。
最后,我想说的是,爬虫是一项技能,技能就要靠熟练,我现在因为工作中根本用不到python,写代码的能力已经几乎完全丧失了。而我很多活跃在开发方向的同学们的水平越来越高,写代码越来越熟练,如果你想学好爬虫,那最好的办法就是亲自尝试,多写代码锻炼自己。